变压器体系结构在许多最新应用程序中取得了显着进展。然而,尽管他们取得了成功,但现代变形金刚依赖于自我发挥的机制,其时间和空间复杂性在输入的长度上是二次的。已经提出了几种方法来加快自我注意力的机制以实现次级运行时间。但是,这些作品中的绝大多数并不伴随着严格的错误保证。在这项工作中,我们在许多情况下就自我注意的计算复杂性建立了下限。我们证明,自我注意力的时间复杂性在输入长度上必定是二次的,除非强烈的指数时间假设(SETH)是错误的。即使注意力计算仅执行大约和各种注意力机制,该论点也存在。作为对我们的下限的补充,我们表明确实可以使用有限的泰勒级数在线性时间中近似点产物自我发作,而成本依赖于多项式顺序。
translated by 谷歌翻译